RDD তৈরি করা (Parallelize, TextFile) গাইড ও নোট

Big Data and Analytics - অ্যাপাচি স্পার্ক (Apache Spark) - Spark RDD (Resilient Distributed Dataset) এর মৌলিক ধারণা
468

Apache Spark ডিস্ট্রিবিউটেড ডেটা প্রসেসিংয়ের জন্য ব্যবহৃত একটি শক্তিশালী ফ্রেমওয়ার্ক। স্পার্কের মূল ডেটা স্ট্রাকচার হল Resilient Distributed Dataset (RDD), যা একটি ফান্ডামেন্টাল কনসেপ্ট। RDD একটি ডিস্ট্রিবিউটেড ডেটাসেট যা অনেকগুলো Partition তে বিভক্ত থাকে এবং স্পার্ক ক্লাস্টারে বিভিন্ন নোডে প্রসেসিং করা হয়। এটি Fault Tolerant, Immutable, এবং Lazy Evaluation বৈশিষ্ট্যের কারণে ডিস্ট্রিবিউটেড প্রসেসিংয়ের জন্য খুব উপযোগী।

এটি তৈরি করার দুটি জনপ্রিয় পদ্ধতি হল:

  1. Parallelize: একটি লিস্ট বা কোলেকশন থেকে RDD তৈরি করা।
  2. TextFile: ফাইল সিস্টেম থেকে RDD তৈরি করা, যেমন HDFS বা স্থানীয় ফাইল সিস্টেম।

এই টিউটোরিয়ালে, আমরা Parallelize এবং TextFile ব্যবহার করে RDD তৈরি করার পদ্ধতি দেখব।


1. Parallelize: Local Collection থেকে RDD তৈরি করা

Parallelize ফাংশনটি ব্যবহার করে আপনি একটি লোকাল কোলেকশন (যেমন, একটি লিস্ট) থেকে RDD তৈরি করতে পারেন। এটি সাধারণত SparkContext এর মাধ্যমে করা হয়।

Parallelize Example:

from pyspark import SparkContext

# SparkContext তৈরি করুন
sc = SparkContext("local", "RDD Example")

# লোকাল ডেটা (লিস্ট) তৈরি করুন
data = [1, 2, 3, 4, 5]

# Parallelize ফাংশন দিয়ে RDD তৈরি করুন
rdd = sc.parallelize(data)

# RDD এর উপাদানগুলো প্রিন্ট করুন
print(rdd.collect())

এখানে:

  • SparkContext("local", "RDD Example"): এটি স্পার্ক অ্যাপ্লিকেশনটি শুরু করে এবং "local" মোডে স্পার্ক রান করে।
  • sc.parallelize(data): এটি একটি লোকাল কোলেকশন (এখানে একটি লিস্ট) থেকে একটি RDD তৈরি করে।
  • rdd.collect(): এটি RDD এর সমস্ত ডেটা সংগ্রহ করে এবং প্রিন্ট করে।

Output:

[1, 2, 3, 4, 5]

এই পদ্ধতিটি স্থানীয় কোলেকশন থেকে ডেটা RDD তে রূপান্তর করতে ব্যবহৃত হয়।


2. TextFile: ফাইল সিস্টেম থেকে RDD তৈরি করা

TextFile ফাংশনটি ব্যবহার করে আপনি একটি ফাইল বা ডিরেক্টরি থেকে RDD তৈরি করতে পারেন। এটি সাধারণত SparkContext এর মাধ্যমে ব্যবহার করা হয়, এবং ফাইলটি HDFS, S3, বা লোকাল ফাইল সিস্টেম থেকে হতে পারে।

TextFile Example:

from pyspark import SparkContext

# SparkContext তৈরি করুন
sc = SparkContext("local", "TextFile Example")

# লোকাল ফাইল থেকে RDD তৈরি করুন
rdd = sc.textFile("file:///path/to/your/file.txt")

# RDD এর উপাদানগুলো প্রিন্ট করুন
print(rdd.collect())

এখানে:

  • sc.textFile("file:///path/to/your/file.txt"): এটি একটি লোকাল ফাইল থেকে RDD তৈরি করে।
  • rdd.collect(): এটি RDD এর সমস্ত ডেটা সংগ্রহ করে এবং প্রিন্ট করে।

এটি ফাইল সিস্টেমের মধ্যে থাকা ডেটা থেকে RDD তৈরি করার জন্য ব্যবহৃত হয়।


3. RDD এর কিছু গুরুত্বপূর্ণ ফাংশন

RDD তৈরি করার পর, আপনি বিভিন্ন ফাংশন ব্যবহার করে ডেটার উপরে বিভিন্ন কার্যক্রম করতে পারেন, যেমন map(), filter(), reduce(), ইত্যাদি। নিচে কিছু সাধারণ RDD অপারেশন দেখানো হল:

map() Example:

# RDD এর প্রতিটি উপাদানের উপর ফাংশন প্রয়োগ করুন
rdd_mapped = rdd.map(lambda x: x * 2)

# ফলাফল প্রিন্ট করুন
print(rdd_mapped.collect())

Output:

[2, 4, 6, 8, 10]

filter() Example:

# RDD এর এমন উপাদান নির্বাচন করুন যা 3 এর বেশি
rdd_filtered = rdd.filter(lambda x: x > 3)

# ফলাফল প্রিন্ট করুন
print(rdd_filtered.collect())

Output:

[4, 5]

reduce() Example:

# RDD এর সব উপাদান যোগ করুন
rdd_reduced = rdd.reduce(lambda x, y: x + y)

# ফলাফল প্রিন্ট করুন
print(rdd_reduced)

Output:

15

4. Parallelize vs TextFile

Criteriaparallelize()textFile()
SourceLocal collection (e.g., List, RDD)File System (HDFS, local files, S3)
UsageWhen you want to parallelize a local collectionWhen you want to read data from a file
EfficiencyEfficient for smaller datasetsBetter for larger datasets from files
Data ProcessingUses SparkContext to parallelize dataUses distributed file system to load data

Conclusion

RDD (Resilient Distributed Dataset) হল স্পার্কের মূল ডেটা স্ট্রাকচার যা ডিস্ট্রিবিউটেড প্রসেসিংয়ের জন্য ব্যবহৃত হয়। parallelize() এবং textFile() হল দুটি সাধারণ পদ্ধতি যা স্পার্কে RDD তৈরি করতে ব্যবহৃত হয়। parallelize() ফাংশনটি স্থানীয় কোলেকশন থেকে RDD তৈরি করতে ব্যবহৃত হয়, যেখানে textFile() ফাংশনটি ফাইল সিস্টেম থেকে RDD তৈরি করতে ব্যবহৃত হয়। এদের মাধ্যমে আপনি স্পার্কের শক্তিশালী ডিস্ট্রিবিউটেড প্রসেসিং ফিচার ব্যবহার করে ডেটা বিশ্লেষণ এবং প্রক্রিয়া করতে পারবেন।

Content added By
Promotion

Are you sure to start over?

Loading...